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基于 K-means 和 PLS-DA 的 期 刊 评价 关键 指标 研究 
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摘 ”要 : [目的 / 意义] 期刊 的 评价 指标 和 评价 方法 众多 ， 研 究 期 刊 评价 的 指标 重要 性 有 重要 意义 。[ 方 法 / 过 程 ] 本 文 将 期 刊 
评价 指标 分 为 “事前 ”重要 性 与 “事后 ”重要 性 ， 并 重点 研究 “ 事 后 的 关键 指标 确定 。 以 
JCR2019 年 经 济 学 期 刊 的 文献 计量 指标 为 研究 对 象 ， 运 用 K-means 聚 类 得 到 评价 结果 分 类 ， 然 后 基于 主 成 分 分 析 、 偏 最 小 二 
乘法 判别 分 析 计算 期 刊 评价 的 关键 指标 。 [结果 / 结论 ] 使 用 多 因素 评价 能 够 综合 反映 各 变量 的 共同 时 使 用 “ 降 维 ” 思 想 
能 够 较 好 保留 原始 变量 的 信息 ， 降 低 多 重 共 线 性 ; PLS-DA 方法 得 出 影响 期 刊 评价 结果 的 最 重要 3 个 指标 是 期 刊 影响 因子 、 他 
引 影 响 因 子 和 五 年 影响 因子 ， 并 且 在 指标 含义 上 是 互补 的 ; 期 刊 影响 因子 、 他 引 影 响 因 子 和 五 年 影响 因子 的 重要 性 相差 不 大 ， 
且 期 刊 影响 因子 的 重要 性 相对 更 大 ; PLS-DA 对 一 般 期 刊 判别 效果 很 好 ， 较 好 期 刊 判 别 效果 一 般 ， 无 法 对 A 类 期 刊 进行 有 效 判 别 。 
关键 词 : 期 刊 评价 ; 多 属性 评价 ; 指标 重要 性 ; K-means RA; 偏 最 小 二 乘 判别 分 析 
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引用 本 文 : MF, WER. 基于 K-means 和 PLS-DA 的 期 刊 评价 关键 指标 研究 [J]. 农业 图 书 情报 学 报 , 2022, 34(12) : 55-64. 
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i 秀 的 期 刊 如 何 做 到 “高 人 一 等 ”。 

一 般 认为 权重 是 学 术 期 刊 评价 指标 重要 性 的 体现 。 
期 刊 评价 属于 文献 计量 学 的 重要 研究 方向 。 评 价 。 权重 对 于 评价 具有 重要 的 导向 和 影响 ， 权 重大 的 指标 ， 
是 指 研究 者 对 客观 事物 进行 全 面 评审 之 后 所 得 出 的 结 ” 往往 在 评价 值 中 占据 较 大 份额 。 权 重 赋值 方法 包括 主 
论 。 美 国 著名 教育 评价 学 专家 斯 塔 弗 宾 有 言 道 ， “ 评 | 观 权 重 与 客观 权重 ,尽管 权 重 赋 权 方法 不 同 ， 但 对 评 
价 的 目的 不 在 证 明 ， 而 在 改进 "。 期 刊 评价 ， 顾名思义。 价 指标 的 重要 性 而 言 都 是 一 样 的 。 传 统 的 学 术 评 价 中 ， 
便 是 对 期 刊 进行 评价 。 期 刊 是 论文 的 载体 ， 是 学 术 成 | 首先 选择 评价 指标 ， 然 后 确定 权重 ， 再 选择 评价 方法 ， 
果 传 播 的 重要 媒介 ， 是 成 果 分 享 的 平台 。 期 刊 评价 是 ”最 后 计算 得 到 评价 结果 (图 1) ， 在 这 个 过 程 中 ， 除 了 
运用 文献 计量 学 的 理论 和 方法 ， 综 合 期 刊 各 方面 的 指 赋 权 方法 选择 比较 复杂 外 ， 评 价 方法 的 选择 也 是 个 大 
标 之 后 ， 得 出 最 终 评价 结果 。 评 价 不 应 该 仅仅 只 有 评 问题， 毕竟 有 几 十 种 评价 方法 。 赋 权 方 法 方面 ， 主 观 
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评价 指标 


客观 赋 权 


图 1 期 刊 评价 事前 重要 性 

Fig.1 The prior importance ofjournal evaluation 
赋 权 有 专家 评判 法 、 层 次 分 析 法 等 ， 客 观 赋 权 有 变异 
系数 法 、 炉 值 法 、 复 相关 系数 法 等 。 评 价 方法 方面 ， 
有 模糊 评价 法 、 秩 和 比 法 、 因 子 分 析 法 、TOPSIS、 人 
工 神 经 网 络 等 评价 方法 。 在 传统 评价 中 ， 可 以 将 权重 
表示 的 评价 指标 重要 性 视 为 一 种 “事前 重要 性 ”"， 即 先 
确定 评价 指标 重要 性 ， 再 得 到 评价 结果 。 

另 一 种 评价 指标 重要 性 是 “事后 重要 性 ” (图 2)。 
期 刊 评价 结果 是 通过 期 刊 评 价 指标 数据 得 出 的 ， 但 由 
于 评价 方法 众多 ， 使 得 对 于 评价 方法 的 选取 存在 争议 ， 
当然 对 于 评价 结果 也 存在 争议 。 如 果 换 一 种 思路 ， 直 
接 根据 评价 指标 进行 评价 或 分 类 ， 评 价 方法 可 以 采用 
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择 , 或 者 说 评价 方法 选择 的 争议 总 体 不 大 ， 在 大 数据 
背景 下 ， 更 加 尊重 原始 数据 的 直接 处 理 结果 。 这 和 传 
统 的 预先 赋 权 式 学 术 期 刊 评价 模式 有 较 大 区 别 ， 可 以 
完全 消除 赋 权 困难 问题 ， 并 且 大 幅度 降低 了 评价 方法 
的 选择 问题 。 开 展 相 关 问 题 的 研究 ， 在 理论 上 对 学 术 
评价 方法 有 所 推进 ， 提 出 了 一 种 “事后 ”分 析 评 价 指标 
重要 性 或 权重 的 分 析 框 架 ， 在 实践 中 也 有 利于 期 刊 评价 
关键 指标 的 确定 ， 进 而 推进 单 指标 评价 的 相关 研究 。 
本 文 以 JCR2019 年 经 济 学 期 刊 为 例 ， 选 择 K-means 
聚 类 进行 期 刊 分 类 和 评价 ， 然 后 采用 主 成 分 分 析 PCA 
降 维 ， 再 采用 偏 最 小 二 乘法 判别 分 析 PLS-DA 得 到 关 
键 指标 ， 最 后 得 出 结论 并 进行 讨论 。 采 用 K-means 38 
类 对 期 刊 进行 分 类 ， 完 全 凭借 数据 自身 所 隐藏 的 “ 秘 
密 ”， 运 用 相关 方法 理论 以 及 计算 机 软件 操作 得 出 评价 
结果 进行 分 类 ， 能 够 更 好 地 保证 结果 的 准确 性 和 客观 
性 。 本 文 的 创新 在 于 : 四 在 客观 评价 方法 K-means 聚 
类 、PCA 以 及 PLS-DA 下 进行 数据 分 析 ， 保 持 数据 分 
析 结 果 的 客观 性 和 可 信和 度 ; OH PLS-DA 运用 于 期 刊 
评价 并 在 “ 降 维 ” 的 思想 下 进行 研究 ， 能 够 有 效 降低 


聚 类 分 析 或 无 权重 评价 方法 ， 得 到 评价 结果 ， 然 后 再 


模型 的 多 重 共 线性 问题 。 


分 析 各 评价 指标 的 重要 性 或 权重 ， 找 到 关键 指标 。 这 
相当 于 是 一 种 新 的 期 刊 评价 方法 ， 在 尽量 避免 人 为 主 
观 因素 干扰 下 ， 根 据 期 刊 评价 指标 数据 进行 评价 并 挖 
掘 重要 指标 ， 是 一 种 “事后 重要 性 ”。 此 外 ， 由 于 聚 类 
分 析 或 无 权重 客观 评价 方法 的 类 型 总 体 较 少 ， 也 便于 
评价 方法 的 选择 。 


评价 指标 


评价 结果 


图 2 期 刊 评价 事后 重要 性 
Fig.2 The aftermath importance of journal evaluation 
开展 基于 期 刊 完全 客观 评价 的 指标 重要 性 研究 具 
有 重要 意义 。 从 客观 评价 方法 角度 ， 无 权重 客观 评价 
方法 和 聚 类 分 析 方 法 毕竟 较 少 ， 容 易 进行 评价 方法 选 
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2 文献 综述 


客观 评价 指 用 客观 评价 数据 和 评价 方法 进行 评价 ， 
客观 评价 方法 有 的 会 涉及 权重 ， 有 的 不 会 比如 聚 类 分 
析 。 钟 赛 香 等 "对 地 理学 的 期 刊 进行 综合 评价 ， 对 于 权 
重 客观 赋值 的 7 种 方法 ， 分 析 不 同 的 赋值 方法 在 不 同 
参数 下 和 是 否 聚 类 下 的 权重 、 评 价值 和 评价 序 的 演变 
规律 和 特征 变化 ， 在 此 基础 上 选 出 最 优 方法 。 俞 立 平 吕 
认为 客观 赋 权 法 有 很 多 ， 不同 的 方法 会 影响 评价 的 结 
果 。 奉 国 和 等 采用 炉 权 法 结合 因子 分 析 计 算 各 指标 权 
Hi, 通过 TOPSIS 法 计算 各 年 期 刊 综合 得 分 并 构建 综合 
评价 矩阵 。 能 国 经 等 中 首先 用 因子 分 析 对 变量 进行 分 
类 ， 后 用 PLS 结构 方程 模型 对 指标 进行 第 选 。 李 路 艳 
等 四 通过 主 成 分 分 析 ， 确 定期 刊 评价 的 维度 ， 得 出 决定 
期 刊 质量 的 维度 的 是 广度 和 深度 。 

关键 指标 是 指标 体系 评价 中 的 重要 指标 ， 俞 立 平 用 
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权重 或 模拟 权重 与 指标 信息 量 的 几何 平均 值 表示 关键 
指标 系数 ， 对 学 术 期 刊 关键 指标 进行 测度 。 何 学 峰 等 
通过 阐述 科技 期 刊 评 价 7 项 重要 计量 指标 间 的 相互 关 
系 ， 系 统 分 析 它 们 的 属性 和 作用 ， 确 定 关键 指标 。 苏 
福 和 柯 平和 隐 定 公共 图 书信 的 关键 指标 是 保障 条 条 件 、 业 
务 建设 、 服 务 效能 。 

目前 ，JCR 公布 的 期 刊 评 价 指标 较 多 ， 影 响 因子 、 
五 年 影响 因子 、 特 征 因子 分 值 等 都 是 著名 的 期 刊 评价 
指标 。 这 些 期 刊 指 标的 评价 角度 是 多 元 的 ， 且 各 有 利 
mit, ARCHAMBAULT 等 g 指 出 期 刊 影响 因子 的 统计 时 
间 跨 度 太 短 ， 不 能 合理 的 评判 一 些 学 科 的 期 刊 影响 力 。 
新 中 认为 五 年 影响 因子 相 较 于 影响 因子 能 更 客观 地 
衡量 被 引 高 峰 出 现 较 晚 的 期 刊 。ANDRADE 等 中 提出 
在 于 各 个 学 科 、 各 个 级 别 的 期 刊 中 存在 普遍 的 期 刊 自 
引 的 现象 。 因 此 以 他 引 影响 因子 辅助 影响 因子 来 规避 
过 度 自 引 的 乱 象 。 任 胜利 叫 指 出 特征 因子 分 值 计算 更 
长 的 时 间 跨 度 、 扣 除 自 引 等 优点 ， 也 存在 对 于 影响 力 
较 低 的 期 刊 ， 其 数据 离散 型 小 。 
刊 指标 之 间 存 在 多 重 共 线 性 ， 这 是 关键 指标 确 
定 难 以 回避 的 问题 。 赵 星 忠 研究 中 显示 五 年 影响 因子 
与 期 刊 影响 因子 存在 排序 相关 ， 也 有 显著 统计 学 差异 ， 
两 者 测评 结果 在 较 好 和 较 差 期 刊 上 相对 一 致 ， 但 在 多 
数 水 平 居中 的 期 刊 上 存在 区 别 。LU 等 基于 偏 最 小 二 
He (PLS) 模型 的 现 有 变量 选择 方法 评估 ， 引 入 一 套 基 
于 PLS 的 评价 模型 。AFANADOR 等 中 认为 偏 最 小 二 乘 
法 (PLS) 极 大 地 促进 了 对 表现 出 高 水 平 多 重 共 线 性 的 
数据 的 分 析 方 法 。 

从 现 有 的 研究 来 看 ， 客 观 评价 方法 在 期 刊 评价 中 
已 经 得 到 广泛 应 用 ， 包 括 赋 权 类 客观 评价 与 非 赋 权 类 
客观 评价 方法 。 已 采用 的 评价 方法 包括 主 成 分 分 析 、 
因子 分 析 、TOPSIS 、 聚 类 分 析 等 方法 。 关 于 学 术 期 刊 
评价 指标 重要 性 的 确定 方法 ， 主 要 通过 理论 分 析 、 内 
涵 分 析 和 评价 指标 的 相关 性 分 析 进 行 确定 。 而 对 于 关 
键 指标 计算 中 可 能 涉及 到 多 重 共 线 性 问题 研究 较为 充 
分 。 总 体 上 在 以 下 方面 有 待 进一步 研究 。 
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将 其 进一步 细 分 为 “事前 ”评价 与 “事后 ”评价 ， 即 
确定 权重 的 属于 “事前 ”重要 性 ， 不 需要 权重 的 根据 
评价 结果 确定 指标 重要 性 ， 这 是 “事后 ”重要 性 

(2) 关键 指标 确定 的 理论 和 方法 还 有 待 深入 ， 目 
前 的 研究 以 简单 数据 分 析 和 指标 内 涵 分 析 为 主 ， 并 没 
有 探索 关键 指标 确定 的 一 般 方法 论 。 

(3) 基于 客观 评价 结果 进行 “事后 ”关键 指标 确 
定 的 研究 总 体 不 多 ， 对 其 从 理论 上 进行 深度 探讨 的 研 
究 有 待 深入 

(4) 期 刊 评价 相关 指标 较 多 ， 各 个 指标 在 理论 上 
均 有 利弊 ， 且 指标 之 间 具 有 相关 性 甚至 有 互补 性 ， 仅 
从 指标 本 身 很 难 判断 其 重要 性 ， 需 要 从 “事后 ”关键 
指标 进行 确定 。 


3 研究 方法 与 数据 


3.1 研究 框架 


如 图 3 所 示 ， 首 先 对 原始 数据 进行 数据 预 处 理 ， 
删除 无 效 数 据 并 进行 归 一 化 后 将 数据 进行 K-means 38 
类 分 析 ， 得 出 期 刊 聚 类 结果 ， 并 根据 聚 类 结果 给 各 个 
类 别 进行 标注 。 由 于 原始 数据 中 各 指标 之 间 存 在 共 线 
性 〈 如 影响 因子 、 他 引 影响 因 子 和 五 年 影响 因子 ， 特 
征 因子 分 值 和 论文 影响 分 值 )， 因 此 在 进行 PLS-DA 分 
析 之 前 需要 对 数据 进行 降 维 处 理 。 将 K-means 聚 类 得 出 
的 分 类 结果 作为 数据 代入 PCA 模型 中 进行 降 维 处 理 。 


K-means 聚 类 
vy 
指标 数据 广 一 一 "| PCA 〈 主 成 分 分 析 ) | 
偏 最 小 二 乘 分 析 


分 类 正确 率 结果 


图 3 变量 重要 性 研究 原理 
Fig.3 Principle of variable importance research 
ee 
别 分 析 ， 得 出 分 类 效果 与 指标 重要 性 ， 通 过 PLS-DA 


(1) 关于 客观 评价 方法 ,没有 从 指标 重要 性 角度 


模型 的 得 分 图 来 判断 是 否 能 有 效 判别 ， 通 过 变量 重要 
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性 图 对 重要 的 指标 进行 筛选 ，VIP 值 若 大 于 1 便 可 以 
认定 为 是 重要 性 指标 ， 最 后 通过 分 类 正确 率 最 终 得 出 
分 类 的 效果 ， 最 终 得 出 结论 。PLS-DA 模型 广泛 应 用 于 
多 元 数据 中 ， 此 类 数据 通常 是 复杂 的 、 多 维 的 ， 因 此 
要 通过 “ 降 维 ”的 思想 来 寻找 组 间 数 据 特征 差异 。 


3.2 研究 方法 


3.2.1 K-means RÆ 

K-means 聚 类 算法 是 大 均值 聚 类 算法 ， 是 无 监督 
的 算法 。 它 是 基于 样本 集合 划分 的 聚 类 算法 ， 总 的 样 
本 集合 划分 为 个子 集 ， 即 个 类 ， 每 一 类 中 的 样本 
均 不 相同 且 每 个 样本 到 其 所 属 类 别 中 心 的 距离 最 近 。 

对 于 nn 个 样本 的 集合 X={x x> …, x,}， 每 个 样本 
由 一 个 特征 向 量 表示 ， 对 应 的 维 数 为 m。K-means 聚 
类 是 将 这 nn 个 样本 通过 特征 向 量 的 特征 分 到 个 不 同 
的 类 中 ， 其 中 <n。 对 于 个 类 工 , La +, Li 之 间 的 交 
集 为 空 集 ， 并 集 为 全 集 ， 即 每 一 个 样本 分 且 仅 被 分 到 
某 一 个 类 中 ， 并 未 遗漏 或 重复 。 

K-means 聚 类 就 是 将 样本 聚合 为 类 的 选择 问题 ， 其 
算法 的 策略 就 是 通过 使 损失 函数 最 小 化 得 到 最 优 聚 类 。 
首先 采用 欧式 距离 平方 作为 样本 之 间 的 距离 D (x x), 
定义 为 式 (1) 所 示 : 

D(x x) = Elti xy) = -ol CD 

而 损失 函数 为 样本 所 属 的 类 的 中 心 与 样本 之 间 的 
距离 的 总 和 为 损失 函数 ， 如 式 (2) 所 示 : 

L = Pi Peellxi — zll? (2) 

IN PX, = yp Bap, Km) 是 第 1 个 类 的 中 心 ， 
K-means 聚 类 的 求解 就 是 找到 相似 的 样本 被 分 为 同类 
别 时 损失 函数 达到 最 小 。 

3.2.2 主 成 分 分 析 法 PCA 

PCA (Principal Component Analysis) 即 主 成 分 分 
析 法 ， 是 一 种 多 元 统计 方法 ， 是 一 种 常用 的 无 监督 学 
习 方 法 ， 这 一 方法 利用 正 交 变换 把 由 线性 相关 变量 
示 的 观测 数据 转换 为 少数 几 个 由 线性 无 关 变 量 表示 的 
数据 ， 其 中 线性 无 关 的 变量 称 为 主 成 分 。 这 是 一 种 很 
好 的 降 维 方法 ， 即 主 成 分 的 个 数 通常 少 于 原始 数据 变 
量 的 维 数 ， 为 数据 分 析 提 供 便利 。 同 时 ， 通 过 主 成 分 
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分 析 消 除了 变量 之 间 的 共 线 性 ， 
台 变量 中 有 效 的 信息 。 
3.2.3 偏 最 小 二 乘法 判别 分 析 (PLS-DA) 

偏 最 小 二 乘法 判别 分 析 (PLS-DA, Partial Least 
Squares Discrimination Analysis) 一 种 基于 偏 最 小 二 乘 
回归 的 用 于 判别 分 析 的 多 变量 统计 分 析 方 法 。 判 别 分 
析 是 一 种 根据 观察 或 测量 到 的 者 干 变量 值 ， 来 判断 研 
究 对 象 如 何 分 类 的 常用 统计 分 析 方 法 。 其 原理 是 对 不 
同 处 理 样 本 (如 观测 样本 、 对 照样 本 ) 的 特性 分 别 进 
行 训练 , 产生 训练 集 ， 并 检验 训练 集 的 可 信和 度 ， 
种 有 监督 的 机 器 学 习 算 法 。 

首先 ， 知 道 期 刊 所 属 的 类 别 (本 论文 类 别 由 
K-means 聚 类 得 出 ) ， 通 过 建立 PCA 模型 WAER 
分 ， 通 过 降 维 的 思想 来 降低 模型 的 指标 之 间 的 多 重 共 
线性 。 通 过 PCA 模型 过 渡 到 PLS-DA 建立 样本 指标 
(特征 ) 与 其 所 类 别 的 关系 ,来 实现 对 待 检验 或 者 待 判 
断 的 样本 进行 分 类 判别 。 同 时 通过 计算 变量 投影 重要 
E (Variable Importance for the Projection, VIP) 来 衡 
量 各 指标 的 表达 模式 对 各 组 样本 分 类 判别 的 影响 程度 
和 解释 能 力 ， 从 而 辅助 重要 指标 的 筛选 (通常 VIP {EL > 
1.0 作为 即 可 选 为 重要 指标 )。 


并 且 保留 了 大 部 分 原 


日 
证 一 


3.3 研究 数据 


本 文选 取 2019 年 ICR (《 期 刊 引 证 报告 )) 收录 的 
经 济 学 期 刊 进行 研究 。 期 刊 引 证 报告 是 美国 科学 情报 
研究 所 编辑 出 版 的 期 刊 分 析 和 评价 数据 库 ， 是 一 个 综 
合 、 学 科 广 泛 的 期 刊 评价 和 分 析 报 告 ， 能 够 反映 期 刊 质 
量 及 其 影响 力 。 由 于 经 济 学 拥有 相当 数量 的 期 刊 ， 因 而 
数据 样本 量 较 大 ， 对 于 模型 所 得 到 的 结果 更 具 可 靠 性 。 

JCR2019 年 经 济 学 期 刊 共有 373 AWA, HF 36 
本 期 刊 有 缺失 数据 ， 因 此 将 此 36 KATMER, HR 
337 本 期 刊 的 数据 有 效 。 因 此 ， 在 数据 进行 清洗 之 后 ， 
将 337 本 期 刊 的 数据 进行 数据 预 处 理 。 

本 文 研究 的 是 期 刊 评价 ， 期 刊 的 评价 指标 众多 ， 
衡量 期 刊 被 引 (总 被 引 频 次 ) 以 及 衍生 的 指标 (影响 
因子 、 他 引 影响 因子 、 即 年 指标 、 特 征 因子 分 值 等 ); 
衡量 期 刊 的 文章 数量 的 指标 ( 载 文 量 ); 衡量 期 刊 内 容 
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时 效 性 的 指标 (引用 半衰期 、 被 引 半 衰 期 ); 权衡 期 刊 
论文 数量 与 质量 的 指标 (HFA, GRO; 衡量 期 刊 
论文 的 基金 情况 (基金 论文 比 );， 比 较 期 刊 的 与 平均 水 
平 的 指标 (论文 影响 分 数 ) 等 。 综 合 多 个 方面 的 考虑 
以 及 数据 的 可 获取 性 ， 本 文选 取 共 9 个 指标 对 期 刊 进 
行 评价 。9 个 指标 分 别 是 总 被 引 频 次 (TC)、 期 刊 影响 
因子 (JE) 、 他 引 影响 因子 (IFW) 、 五 年 影响 因子 
(YIF)、 即 年 指标 〈I) 、 被 引 半衰期 (ED)、 引 用 半 误 
期 (ING) 、 特 征 因子 分 值 (ES) 和 论文 影响 分 值 
(AIS)。 其 中 被 引 半衰期 和 引用 半衰期 使 用 的 是 负 向 指 
标 ， 即 指标 越 小 对 期 刊 的 影响 越 积极 。 

考虑 到 每 个 指标 的 数值 量 纲 不 同 ， 因 此 在 对 数据 进 
行 建 模 之 前 ， 首 先 对 每 个 指标 的 数据 进行 去 量 钢化 。 本 
文采 用 归 一 化 处 理 ， 即 对 于 正 向 指标 ， 用 每 个 指标 减 去 
此 指标 中 的 极 小 值 除 以 此 指标 的 极 差 ， 如 式 (3) 所 示 : 


Xa = X-X min (3) 


Xmax—Xmin 


而 对 于 负 向 指标 ， 用 每 个 指标 中 的 极 大 值 减 去 此 
指标 除 以 此 指标 的 极 差 ， 如 式 (4) 所 示 : 


max —X 


Xmax-Xmin 


经 过 数据 归 一 化 和 正 向 化 之 后 ， 所 有 的 数据 都 处 
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x 


于 [0,1] 之 间 ， 没 有 量 岗 的 影响 。 所 有 的 数据 都 进行 正 
向 处 理 ， 即 每 个 数据 越 接 近 于 1， 表 明 期 刊 评价 越 好 ， 
反之 期 刊 评价 差 。 


4 实证 结果 


4.1 K-means 聚 类 分 析 


将 进行 预 处 理 之 后 的 数据 进行 K-means RANN, 
本 文选 取 337 个 期 刊 ， 每 个 期 刊 共 9 个 指标 为 数据 源 
进行 聚 类 分 析 。 由 于 期 刊 的 数目 较 多 ， 因 此 大 取 3， 即 
取 3 个 分 类 。 最 后 经 过 IBM SPSS Modeler 18.0 软件 进 
行 K-means 聚 类 ， 采 用 “专家 ”模式 ， 集 合 编码 值 取 
0.707 11 ， 最 后 得 到 聚 类 结果 ， 结 果 显 示 ，A 类 期 刊 占 
比 3.9%， 共 13 个 期 刊 ; B 类 期 刊 占 比 21.7% ， 共 有 
73 本 期 刊 ; C 类 期 刊 最 多 ， 占 比 74.5%, A 251 本 期 
刊 。 由 聚 类 得 到 的 A 类 期 刊 如 表 1 所 示 。 


4.2 主 成 分 分 析 结 果 


主 成 分 分 析 能 够 对 变量 进行 降 维 ， 也 可 以 降低 多 
重 共 线 性 。 为 了 能 够 得 到 拟 合 效果 好 的 模型 ， 在 进行 
PCA 和 PLS-DA 将 337 个 样本 区 分 为 训练 集 和 测试 集 ， 


Tr 


#1 RAT A 类 期 刊 


Table 1 Cluster analysis of Class A journals 


期 刊 名 (缩写 ) IFW JIF YIF TC II ED ING ES AIS 类 别 
Q J ECON 1.000 1.000 1.000 0.521 0.4375 0.437 0.883 0.459 1.000 A 
J ECON PERSPECT 0.881 0.869 0.691 0.237 0.096 0.597 0.905 0.182 0.355 A 
ECON GEOGR 0.720 0.723 0.609 0.061 0.275 0.703 0.868 0.025 0.120 A 
BEOOKINGS PAP ECO AC 0.686 0.681 0.391 0.053 0.167 0.474 0.946 0.052 0.320 A 
J FINANC 0.577 0.592 0.599 0.717 0.207 0.440 0.789 0.357 0.456 A 
J ECON LIT 0.584 0.572 0.452 0.166 0.238 0.553 0.804 0.106 0.345 A 
J FINANC ECON 0.476 0.496 0.540 0.629 0.185 0.611 0.811 0.431 0.324 A 
AM ECON REV 0.476 0.480 0.481 1.000 0.324 0.519 0.858 1.000 0.413 A 
J POLIT ECON 0.478 0.475 0.436 0.458 0.384 0.092 0.792 0.289 0.516 A 
ENERG POLICY 0.388 0.434 0.343 0.881 0.195 0.819 0.965 0.357 0.052 A 
REV ECON STUD 0.426 0.421 0.393 0.247 0.307 0.372 0.820 0.285 0.460 A 
REV FINANC STUD 0.390 0.399 0.432 0.312 0.209 0.720 0.836 0.376 0.326 A 
ECONOMETRICA 0.334 0.340 0.373 0.632 0.279 0.000 0.798 0.336 0.470 A 
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其 中 训练 集 235 个 ， 测 试 集 102 个 。 本 文 共 选 取 9 个 
影响 期 刊 质量 的 指标 ， 通 过 主 成 分 分 析 建 立 模型 ， 拟 
合 得 到 两 个 主 成 分 。 拟 合 参数 R2X=0.761，Q2=0.524。 
R2X 是 拟 合 的 度量 ， 即 模型 拟 合 数据 的 程度 。R2X 越 
接近 于 1， 模 型 拟 合 程度 越 好 。 根 据 主 成 分 分 析 法 
(PCA) 预测 的 变量 集 为 X。Q2 显示 了 模型 预测 新 数 
据 的 能 力 。 较 大 的 Q2 (Q2>0.5) 表明 具有 良好 的 预测 
性 。 此 模型 中 拟 合 优 度 为 0.761， 说 明 模型 拟 合 较 好 并 
且 Q2 大 于 0.5， 对 于 模型 预测 有 较 好 的 预测 能 力 。 
根据 PCA 的 载荷 图 ， 载 荷 图 表明 各 影响 因素 的 分 
布 情况 。 该 图 显示 ，JIFE、IFW、YIF 三 个 指标 距离 原 
点 最 远 ， 说 明 这 3 个 变量 被 主 成 分 解释 的 越 充分 。 其 
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和 C 类 的 样本 点 大 多 数 都 在 可 解释 范围 内 ， 并 且 B 类 
和 C 类 区 分 比较 明显 。 但 是 A 类 样本 均 不 在 可 解释 范 
围 内 ， 因 此 此 模型 无 法 准确 对 A 类 样本 以 及 少数 B、 
C 类 样本 进行 归 类 。 因 此 使 用 PCA 模型 能 够 对 期 刊 进 
行 一 定 的 分 类 ， 特 别 是 对 于 B 与 C 类 有 较 好 的 效果 ， 
可 以 通过 每 个 样本 点 在 得 分 图 中 的 位 置 进行 分 类 。 


4.4 PLS-DA 模型 分 析 


拟 合 PLS-DA 模型 ，PLS-DA 模型 包含 两 个 主 成 
分 ， 拟 合 参 数 R2X 为 0.758，R2Y 为 0.516，Q2 为 
0.488。 图 5 为 PLS-DA 模型 的 得 分 图 ， 与 PCA 模型 的 
得 分 图 类 似 。 因 此 采用 PLS-DA 能 够 较 好 地 区 分 B 类 


KÆ TC, ES, AIS 的 位 置 很 接近 ， 距 离 指 标 原点 较 


远 。 而 ED 距离 原点 最 近 ，ING 次 之 ， 说 明 其 被 主 成 
分 解释 的 越 不 充分 ， 即 若 使 用 此 主 成 分 ，ED 、ING 的 
信息 损失 量 最 大 ; 而 JE、IFW、YIF 的 信息 损失 量 较 
小 ， 说 明 这 3 个 指标 被 主 成 分 解释 的 越 充分 ， 保 留 了 
相对 更 多 的 原始 信息 量 。 同 时 ， 可 以 对 坐标 系 中 的 点 
与 其 所 处 的 位 置 进行 变量 分 类 ， 由 载荷 图 可 以 看 出 ， 
JIF、IFW 与 YIF 三 个 变量 较为 接近 ， 可 以 并 为 一 类 。 
这 3 个 指标 均 与 影响 因子 有 关 ， 可 以 被 分 为 “影响 因 
子 ” 类 。TC、ES、AIS 三 个 指标 位 置 相近 ， 可 以 归 为 
另 一 类 。 

图 4 为 PCA 模型 的 得 分 图 ， 两 个 样本 在 图 中 的 距 
离 越 远 ,说 明 两 者 差异 越 大 ， 反之 则 越 小 。 图 中 B 类 


与 C 类 期 刊 ， 而 对 于 A 类 期 刊 无 法 有 效 判别 。 

图 6 为 PLS-DA 模型 的 VIP (Variable Importance 
for the Projection) 图 ， 即 表示 对 期 刊 进行 分 类 的 重要 
变量 的 重要 程度 进行 分 析 。VIP 值 越 大 ， 说 明 该 指标 
的 重要 性 越 高 ， 指 标 在 不 同类 别 的 期 刊 中 的 差异 更 为 
显著 。 对 期 刊 评价 分 最 重要 的 是 期 刊 影响 因子 (JE )， 
VAP[2]=1.174; 其 次 是 他 引 影 响 因子 (OFW), VIP[2]= 
1.170; 再 是 五 年 影响 因子 (YIF)，VIP[2]=1.147。 这 3 
个 指标 是 对 期 刊 评价 分 类 最 重要 的 指标 。 而 在 9 个 指 
标 里 ，5 个 指标 的 VIP 值 都 超过 1， 特 征 因子 分 值 
(ES) 和 论文 影响 分 值 (AIS) 的 VIP[2] 值 分 别 为 1.024 
和 1.019。 而 被 引 半衰期 (ED) 和 引用 半衰期 (ING) 
的 VIP 值 较 低 ， 因 此 这 两 个 指标 与 期 刊 分 类 无 明显 的 
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图 4 PCA 得 分 图 


Fig.4 PCA score chart 
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图 5 PLS-DA 得 分 图 
Fig.5 PLS-DA score chart 


PLS1.M8 (PLS-DA) 


4 
a 


IF 
Fw 
YIF 


< 
Var ID (Primar 


图 6 PLS-DA 模型 VIP 图 


Fig.6 VIP diagram of PLS-DA model 


相关 性 。 

为 什么 这 3 个 指标 很 重要 ? 首先 ， 是 期 刊 的 影响 
因子 指标 ， 这 是 期 刊 最 重要 的 指标 之 一 ， 是 衡量 学 术 
期 刊 影响 力 的 一 个 重要 指标 。 一 般 来 说 期 刊 的 影响 因 
子 越 大 ， 期 刊 的 影响 力 越 大 。 但 由 于 影响 因子 的 统计 
年 份 较 短 ， 也 可 能 存在 过 度 自 引 的 现象 ， 因 此 期 刊 不 
能 仅 依靠 影响 因子 来 判断 其 质量 。 学 术 界 的 自 引 是 比 
较 常 见 的 现象 ， 当 不 滥用 自 引 时 其 至 是 一 种 积极 现象 。 
而 他 引 影响 因子 ， 排 除了 过 度 自 引 ， 某 种 程度 上 相对 
影响 因子 更 加 科学 。 因 此 期 刊 评 价 在 影响 因子 的 基础 
上 再 比较 他 引 影 响 因 子 ， 期 刊 评价 会 更 加 全 面 、 客 观 ， 
避免 了 极端 情况 。5 年 影响 因子 说 明 期 刊 的 稳定 性 以 及 
持久 性 ， 是 期 刊 影响 因子 与 他 引 影响 因子 的 较 好 补充 ， 


因为 这 两 个 指标 都 是 根据 2 年 载 文 数据 计算 的 ， 存 在 
一 些 期 刊 的 引用 高 峰 出 现 较 晚 ， 因 此 5 年 影响 因子 在 
一 定 程度 上 弥补 了 影响 因子 的 一 个 缺陷 。 通 过 PLS-DA 
模型 的 客观 结果 ， 以 及 3 个 指标 的 自身 含义 。 因 此 期 
刊 评价 中 影响 因子 、 他 引 影 响 因 子 和 5 年 影响 因子 的 
重要 性 相差 不 大 ， 但 影响 因子 的 重要 性 相对 更 大 一 点 ， 
但 需要 彼此 互补 。 这 3 个 指标 虽然 存在 的 线性 关系 ， 
但 是 由 于 使 用 了 PCA 和 PLS-DA 分 析 ， 极 大 地 降低 了 
多 重 共 线性 ， 因 此 这 3 个 指标 是 影响 期 刊 分 类 的 最 重 
要 的 3 个 指标 是 合理 的 。 

对 于 训练 集 ， 运 用 PLS-DA 模型 得 到 误 分 类 表格 ， 
结果 如 表 2 所 示 。 总 体 的 分 类 正确 率 为 85.96%, Fisher- 
P {EX 0.000, 说 明 模 型 结果 显著 。C 类 分 类 100% IE 
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确 ， 但 是 对 于 样本 较 少 的 A 类 和 B 类 ， 正 确 率 仅 有 
50.00% 和 46.15%, EP A 类 有 5 个 样本 被 误 分 到 B 
类 ， 而 B 类 样本 52 个 中 有 24 个 分 类 正确 ， 却 有 28 个 
样本 被 误 分 为 C 类 。 说 明 在 训练 集中 ，C 类 样本 被 正 
确 分 类 的 比例 高 ， 而 A 类 和 B 类 的 误 分 率 较 高 ， 说 明 
在 各 分 类 的 分 界线 效果 不 明显 。 

#2 训练 集 误 分 类 


Table 2 Misclassification of training set 


训练 集 分 组 样本 数 /个 正确 率 A B C 
A 10 50.00 5 5 0 
B 52 46.15 0 24 28 
Cc 173 100.00 0 0 173 
总 计 235 85.96 5 29 201 
Fisher 概率 0.000 


对 于 测试 集 ， 误 分 类 表格 如 表 3 所 示 ， 测 试 样本 
下 A 类 和 B 类 正确 分 类 率 比 训练 集 高 得 多 。 总 的 正确 
率 高 达 96.08%, Fisher-P 值 为 0.000， 说 明 模 型 结果 显 
著 。 同 样 的 C 类 100% 正 确 ，A 类 样本 较 少 不 做 评价 ， 
mi B 类 的 正确 率 为 85.71%， 仅 有 1 个 被 误 分 为 A 类 ， 
而 有 2 个 样本 被 误 分 为 C 类 。 说 明 即 使 训练 集 表现 不 
好 ， 但 该 模型 具有 较 好 的 泛 化 能 

表 3 测试 集 误 分 类 


Table 3 Misclassification of test set 


测试 集 分 组 样本 数 /个 正确 率 A B C 

3 66.67 2 1 0 

B 21 85.71 1 18 2 

c 78 100.00 0 0 78 

合计 102 96.08 3 19 80 
Fisher 概率 0.000 


5.1 “事后 重要 性 ”是 一 类 重要 的 关键 指标 
确定 方法 

在 学 术 期 刊 多 属性 评价 中 ， 一 种 确定 关键 指标 的 
方式 是 通过 权重 体现 ， 当 然 赋 权 方 式 包 括 主观 赋 权 与 
客观 赋 权 ， 权 重大 的 评价 指标 无 疑 在 评价 中 占据 较 重 
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要 的 地 位 。 由 于 赋 权 是 在 评价 结果 出 来 前 进行 的 ， 因 
此 也 称 为 “事前 重要 性 ”。 但 是 该 类 评价 方法 总 体 上 较 
多 ， 不 仅 赋 权 方 法 与 权重 存在 争议 ， 评 价 方法 的 选择 
存在 争议 。 男 一 种 是 首先 确定 评价 结果 ， 但 不 涉及 权 
重 ， 该 类 评价 方法 包括 聚 类 分 析 、 一 些 非 线性 评价 方 
法 ， 该 类 评价 方法 较 少 ， 又 不 涉及 权重 ， 完 全 根据 数 
据 评 价 ， 在 方法 选取 上 争议 相对 较 小 。 在 确定 评价 结 
果 后 再 找到 关键 指标 ， 这 是 一 种 “事后 重要 性 ”， 也 是 
不 可 忽视 的 研究 对 象 。 


5.2 PLS-DA 是 一 种 重要 的 关键 指标 确定 方法 


本 文 提出 “事后 重要 性 ”的 概念 ， 不 仅 能 够 完全 
消除 赋 权 困难 问题 ， 并 且 大 幅度 降低 了 评价 方法 的 选 
择 问 题 。K-means 聚 类 分 析 和 PLS-DA 模型 都 能 够 对 期 
刊 进行 评价 和 分 类 。 根 据 PLS-DA 结果 共有 5 个 指标 
的 VIP 值 大 于 1， 其 中 期 刊 影响 因子 、 他 引 影 响 因子 
和 五 年 影响 因子 是 影响 分 类 最 主要 的 3 个 指标 ， 他 引 
影响 因子 弥补 了 影响 因子 有 过 度 自 引 的 缺陷 ， 五 年 影 
响 因子 弥补 了 影响 因子 统计 时 间 较 短 的 缺陷 ， 因 此 这 3 
个 指标 有 各 自 的 特点 也 能 够 相互 ， 补 充 ，3 个 指标 的 重 
要 性 相差 不 大 但 影响 因子 的 重要 性 相对 更 大 ， 并 且 通 
过 模型 可 以 有 效 降低 其 共 线性 ， 所 以 这 3 个 指标 重要 
性 最 高 是 合理 的 。 在 进行 期 刊 定量 评价 时 ， 要 运用 多 
指标 评价 ， 使 评价 更 全 面 、 科 学 。 对 分 类 最 不 起 作用 
的 是 被 引 半 衰 期 和 引用 半衰期 这 2 个 变量 。PCA 和 
PLS-DA 模型 能 够 对 C 类 样本 准确 分 类 ， 而 对 于 A 类 
和 B 类 样本 的 分 类 水 平 略 低 ， 原 因 可 能 在 于 使 用 
K-means 聚 类 的 时 候 ，A 类 样本 的 组 内 差距 太 大 造成 。 
有 些 期 刊 的 指标 从 严格 意义 上 讲 是 异常 值 ， 导 致 组 内 
极 差 过 大 。 但 是 这 不 妨碍 PLS-DA 方法 在 期 刊 评价 上 
的 应 用 。 
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Key Indicators of Journal Evaluation Based on K-means and PLS-DA 


YU Liping, PAN Weibo 
(School of Statistics and Mathematics, Zhejiang Gongshang University, Hangzhou 310018) 


Abstract: [Purpose/Significance] There are many evaluation indicators and methods for journal evaluation, and it is of great significance 
to study the importance of evaluation indicators of journals. This paper proposed an analysis framework for "post-event" analysis of the 
importance or weight of evaluation indicators. [Method/Process] This paper divides the journal evaluation indicators into "before" 
importance and "after" importance, and focuses on the "after" importance, that is, the determination of key indicators after objective 
cluster analysis. Taking the bibliometric indicators of JCR 2019 economics journals as the research object, K-means clustering was first 
used to obtain the classification of evaluation results, and then the key indicators of journal evaluation were calculated based on principal 
component analysis and partial least squares discriminant analysis, and the importance of each indicator was analyzed. Starting from the 
objective results and the meaning of the indicators themselves, this study expounded the reasons why indicators are important. 
[Results/Conclusions] Compared with the importance of "before", the importance of "after the fact" is to determine the evaluation results 
first, without involving weights, and completely based on data evaluation. There is relatively little controversy in the selection of 
methods. The indicator is more scientific and objective; the use of multi-factor evaluation can comprehensively reflect the common 
influence of each variable, and the use of the "dimension reduction" idea can better retain the information of the original variables and 
reduce the multicollinearity of the evaluation indicator; K-means cluster analysis methods, both the PLS-DA and PLS-DA models, are 
capable of evaluating and classifying journals. According to the results of PLS-DA, the VIP value of five indicators is greater than 1; the 
three most important indicators that affect the evaluation results of journals obtained by the PLS-DA method are the journal impact 
factor(IF), the other citation IF and the five-year IF, and the meaning of the indicators is the IF of other citations and the five-year IF 
make up for the shortcomings of the IF; the importance of the journal IF, the IF of other citations and the five-year IF is not much 
different, and the importance of the journal IF is relatively greater. In the quantitative evaluation of journals, it is necessary to use 
multi-index evaluation to make the evaluation more comprehensive and scientific; PLS-DA has a good effect on general journals, but the 
better journals have a general effect, and cannot effectively distinguish Class A journals. 

Keywords: journal evaluation; multi-attribute evaluation; indicator importance; K-means clustering; partial least squares discriminant 


analysis 
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